@秒灵儿
2年前 提问
1个回答

大数据数据的分布方式通常采用哪四种方法

房乐
2年前

大数据数据的分布方式通常采用以下四种方法:

  • 哈希方式:哈希方式是最常见的数据分布方式,其方法是按照数据的某一特征计算哈希值,并将哈希值与机器中的机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。所谓数据特征可以是key-value系统中的key,也可以是其他与应用业务逻辑相关的值。

  • 按数据范围分布:按数据范围分布是另一种常见的数据分布方式,将数据按特征值的值域范围划分为不同的区间,使得集群中每台(组)服务器处理不同区间的数据。

  • 按数据量分布:按数据量分布数据与具体的数据特征无关,而是将数据视为一个顺序增长的文件,并将这个文件按照某一较为固定的大小划分为若干数据块,不同的数据块分布到不同的服务器上。

  • 一致性哈希:使用一个哈希函数计算数据或数据特征的哈希值,令该哈希函数的输出值域为一个封闭的环,即哈希函数输出的最大值是最小值的前序。将节点随机分布到这个环上,每个节点负责处理从自己开始顺时针至下一个节点的全部哈希值域上的数据。